Probability and Statistics

Subject: Mathematics
Topic: 9
Cambridge Code: 0580

Probability Fundamentals

Basic Concepts

Experiment - Process producing outcomes Sample space (S) - All possible outcomes Event (A) - Subset of sample space Probability - Likelihood of event, 0 ≤ P(A) ≤ 1

Probability Definition

$P(A) = \frac{\text{Number of favorable outcomes}}{\text{Total number of possible outcomes}}$

Assumes equally likely outcomes

Probability Rules

Addition Rule

For any events A and B: $P(A ∪ B) = P(A) + P(B) - P(A ∩ B)$

Mutually exclusive (A and B cannot occur together): $P(A ∪ B) = P(A) + P(B)$

Multiplication Rule

For independent events: $P(A ∩ B) = P(A) \cdot P(B)$

For dependent events: $P(A ∩ B) = P(A) \cdot P(B|A)$

Complement Rule

$P(A^c) = 1 - P(A)$

Conditional Probability

Conditional probability - Probability given another event occurred

$P(A|B) = \frac{P(A ∩ B)}{P(B)}, \quad P(B) > 0$

Bayes' Theorem

$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$

Generalized: $P(A_i|B) = \frac{P(B|A_i) \cdot P(A_i)}{\sum_j P(B|A_j) \cdot P(A_j)}$

Distributions

Discrete Distributions

Binomial Distribution - n independent trials, probability p

$P(X = r) = \binom{n}{r}p^r(1-p)^{n-r}, \quad r = 0, 1, ..., n$

Mean: $E(X) = np$ Variance: $\text{Var}(X) = np(1-p)$

Poisson Distribution - Rare events in fixed time/space

$P(X = r) = \frac{e^{-λ}λ^r}{r!}, \quad r = 0, 1, 2, ...$

Mean: $E(X) = λ$ Variance: $\text{Var}(X) = λ$

Continuous Distributions

Normal Distribution - Bell curve, symmetric

$f(x) = \frac{1}{σ\sqrt{2π}}e^{-(x-μ)^2/(2σ^2)}$

Mean: μ Standard deviation: σ

Standardization: $Z = \frac{X - μ}{σ}$ follows standard normal (μ = 0, σ = 1)

Central Limit Theorem

Distribution of sample means approaches normal as n increases, regardless of parent distribution

Statistics

Measures of Central Tendency

Mean (average): $\bar{x} = \frac{\sum x_i}{n}$

Median - Middle value when ordered

Mode - Most frequent value

Weighted mean: $\bar{x}_w = \frac{\sum w_i x_i}{\sum w_i}$

Measures of Spread

Range - Maximum - Minimum

Variance: $s^2 = \frac{\sum (x_i - \bar{x})^2}{n} \text{ (population)}$ $s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \text{ (sample)}$

Standard deviation: $s = \sqrt{\text{Variance}}$

Interquartile range (IQR) - $Q_3 - Q_1$

Standardization

$Z = \frac{X - \bar{X}}{s}$

Allows comparison across scales

Sampling

Sample vs Population

Population - Entire group of interest Sample - Subset used for analysis Bias - Systematic error favoring certain values Random sampling - Every element equally likely

Sampling Methods

Simple random - Every possible sample equally likely Stratified - Divide into strata, sample from each Systematic - Select every kth element Cluster - Divide into clusters, sample clusters

Hypothesis Testing

Null and Alternative Hypotheses

Null hypothesis $H_0$ - Status quo claim Alternative hypothesis $H_1$ - Research claim

One-tailed or two-tailed

Significance Level

α - Probability of Type I error

α = 0.05 (most common)
α = 0.01 (more stringent)

Type I and Type II Errors

	H₀ True	H₀ False
Reject H₀	Type I error	Correct
Fail to reject H₀	Correct	Type II error

p-value

p-value - Probability of observing data if H₀ true

Decision:

p < α: Reject H₀
p ≥ α: Fail to reject H₀

Test Statistics

t-test - Compare means, small samples z-test - Compare means, large samples χ² test - Goodness of fit, independence F-test - Variance comparison

Correlation and Regression

Correlation Coefficient

Pearson's r - Measures linear relationship (-1 to 1)

$r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{s_x s_y}$

r = 1: Perfect positive
r = 0: No linear relationship
r = -1: Perfect negative

Linear Regression

Least squares line: $\hat{y} = a + bx$

$b = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = r\frac{s_y}{s_x}$

$a = \bar{y} - b\bar{x}$

Coefficient of determination: $R^2 = r^2$ - Proportion of variance explained

Data Visualization

Distributions

Frequency histogram - Shows distribution shape Stem-and-leaf - Shows individual values Box plot - Shows quartiles and outliers

Relationships

Scatter plot - Shows correlation Line graph - Shows trends over time

Key Points

Probability: 0 ≤ P(A) ≤ 1
Addition rule for unions
Multiplication for intersections
Conditional probability changes with information
Binomial for discrete, count data
Normal for continuous data
Central Limit Theorem for sampling
Mean and standard deviation describe distributions
Hypothesis testing uses significance level
Correlation measures relationship strength

Practice Questions

Calculate probabilities using rules
Apply Bayes' theorem
Find binomial probabilities
Use normal distribution tables
Calculate sample statistics
Conduct hypothesis tests
Find confidence intervals
Calculate correlation
Fit regression lines
Interpret results

Revision Tips

Know probability rules thoroughly
Understand normal distribution properties
Practice hypothesis testing steps
Understand Type I and Type II errors
Learn when to use each test
Interpret correlation correctly
Practice with real data
Understand limitations
Know when normal approximation applies

Probability Fundamentals​

Basic Concepts​

Probability Definition​

Probability Rules​

Addition Rule​

Multiplication Rule​

Complement Rule​

Conditional Probability​

Bayes' Theorem​

Distributions​

Discrete Distributions​

Continuous Distributions​

Central Limit Theorem​

Statistics​

Measures of Central Tendency​

Measures of Spread​

Standardization​

Sampling​

Sample vs Population​

Sampling Methods​

Hypothesis Testing​

Null and Alternative Hypotheses​

Significance Level​

Type I and Type II Errors​

p-value​

Test Statistics​

Correlation and Regression​

Correlation Coefficient​

Linear Regression​

Data Visualization​

Distributions​

Relationships​

Key Points​

Practice Questions​

Revision Tips​

Probability Fundamentals

Basic Concepts

Probability Definition

Probability Rules

Addition Rule

Multiplication Rule

Complement Rule

Conditional Probability

Bayes' Theorem

Distributions

Discrete Distributions

Continuous Distributions

Central Limit Theorem

Statistics

Measures of Central Tendency

Measures of Spread

Standardization

Sampling

Sample vs Population

Sampling Methods

Hypothesis Testing

Null and Alternative Hypotheses

Significance Level

Type I and Type II Errors

p-value

Test Statistics

Correlation and Regression

Correlation Coefficient

Linear Regression

Data Visualization

Distributions

Relationships

Key Points

Practice Questions

Revision Tips